大 模型 与 标准 文献 知识 库 的 融合 应 用 探索 
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摘要 ， 在 人 工 智 能 与 大 数据 技术 背景 下 ， 利 用 大 模型 及 构建 标准 文献 知识 库 对 于 科研 创新 、 
知识 挖掘 和 信息 检索 具有 重要 价值 。 标 准 文献 知识 库 为 各 行业 的 规范 化 、 标 准 化 提供 了 坚实 
的 支撑 。 本 研究 首先 探讨 了 标准 文献 的 现状 , 然后 基于 检索 增强 搭建 大 模型 与 标准 文献 知识 
库 集 成 的 框架 ， 并 提出 各 阶段 增强 优化 探索 。 最 后 展望 了 未 来 的 研究 方向 和 应 用 前 景 。 
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Exploration of the Integration and Application of Large Model and 


Standard Literature Knowledge Base 
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Abstract: In the context of artificial intelligence and big data technology, the use of large models 
and the construction of standard literature knowledge bases are of great value for scientific research 
innovation, knowledge mining, and information retrieval. The standard literature knowledge base 
provides solid support for the standardization and standardization of various industries. This study 
first explores the current status of standard literature, then builds a framework for integrating large 
models and standard literature knowledge bases based on retrieval enhancement, and proposes 
exploration of enhancement optimization in each stage. Finally, it looks forward to future research 
directions and application prospects. 
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Generation 
1 引言 

我 国 一 直 以 来 都 非常 重视 标准 文献 的 建立 , 标准 文献 也 是 推动 经 济 社会 发 展 、 
提高 产品 质量 、 保障 人 民生 活水 平 的 重要 手段 。 国家 也 在 持续 加 大 对 标准 文献 的 
投入 , 不 断 完善 各 类 标准 体系 ， 以 推动 经 济 社会 持续 健康 发 展 。 为 各 行 各 业 的 健 
康 发 展 提供 了 有 力 保障 。 例 如 ， 在 技术 领域 ， 标 准 对 于 技术 创新 、 技 术 进 步 具 有 


重要 的 引导 作用 。 在 产品 质 


产 方面 ， 标 准 对 于 预防 和 减少 


于 控制 污染 物 排放 、 改 善 生 态 环 境 具 


基于 全 国标 准 信 


有 故 发 生 具 


Hl 量 方 面 ， 标准 是 衡量 


量 产品 优 劣 的 重要 依据 。 在 安全 生 


有 重要 意义 。 在 环境 保护 领域 ， 标 准 对 
【有 重要 意 》 
息 公共 服务 平台 (https://std.samr.gov.cn/) 公开 的 数据 , 截止 


2024 年 1 月 11 日 国家 层面 总 共 发 布 68020 标准 (不 含 食 品 安 全 、 环 境 保 护 、 
J 业 层 面 ， 包 括 现行 标准 43693 部 ， 即 将 实施 标准 


工程 建设 方面 的 国家 标准 )、4 


1662 部 ， 废 止 标准 22665 部 
大 ,标准 数量 呈现 出 稳步 上 升 的 趋势 。 然 而 ， 
施 效 果 并 未 如 预 

鉴于 此 ,本 研究 提出 一 种 融合 大 模型 与 知识 库 的 方法 。 该 方法 涵盖 标准 文献 


知识 提取 、 检 索 j 


期 那样 理 


想 。 


。 从 这 些 数据 来 看 ， 我 国 在 标准 工作 方面 的 投入 巨 


为 该 领域 问题 提供 科学 、 有 效 的 解决 路 径 。 
2 标准 现状 


除 国家 层面 在 
准 。 在 2021 年 至 2023 年 期 间 ， 


在 实际 执行 过 程 中 ， 这 些 标准 的 实 


兽 强 的 RAG 技术 、 各 阶段 的 增强 探索 及 评估 等 多 个 环节 ， 旨 在 


证 定 标准 外 , 我 国 各 行业 部 门 及 地 方 政 府 也 会 按 需 制定 相关 标 


各 行业 部 门 共 发 布 13007 部 标准 、 废 止 83 部 标 


准 ， 各 地 方 政 府 共 发 布 28704 部 标准 、 废 止 1213 部 标准 ， 整 体 标准 数量 呈现 逐 


年 稳步 增长 趋势 ， 有 具体 数量 详 见 表 1。 
表 1 行业 、 地 方 发 布 及 备案 标准 明细 表 〈2021 年 -2023 年 ) 
2021 年 标准 情况 2022 年 标准 情况 2023 年 标准 情况 
发 布 标准 废止 标准 发 布 标准 废止 标准 发 布 标准 废止 标准 
周作 = 二 = " 委 | 寺 = 从 二 = 
行业 | 地 方 | 行业 | 地方 行业 | 地 方 | 行业 | 地 方 行业 | 地 方 | 行业 | 地 方 
1 上 942 | 1480 | 0 1 1 月 | 342 | 1027 | 21 3 1 月 | 126 | 840 0 0 
2 702 | 742 0 0 2 月 | 298 | 439 0 0 2 月 | 428 | 610 0 91 
3 808 | 497 0 12 | 3 月 | 291 | 602 | 17 | 193 | 3 月 | 237 | 1029 1 0 
4 月 | 470 | 438 0 0 4 月 | 685 | 648 0 1 4 月 | 754 | 830 0 0 
5 月 | 360 | 449 0 9 5 月 | 136 | 655 | 10 4 5 月 | 130 | 461 0 2 
6 上 613 | 599 0 0 6 月 | 352 | 583 0 1 6 月 | 453 | 851 30 4 
7 月 | 225 | 541 0 7 7 月 | 198 | 672 4 0 7 月 | 223 | 1089 0 50 
8 月 | 240 | 860 0 0 8 月 | 182 | 826 0 81 | 8 月 | 143 | 930 0 21 
9 月 | 124 | 476 0 0 9 月 88 | 675 0 32 | 9 月 | 218 | 1133 0 8 
10 月 | 39 | 473 0 73 | 10 月 | 280 | 952 0 0 |10 月 | 244 | 961 0 1 
11 月 | 235 | 954 0 58 |11 月 | 626 | 423 0 69 | 11 月 | 947 | 1073 0 5 
12 月 | 518 | 1079 | 0 2 12 月 | 34 | 1197 263 | 12 月 | 316 | 1610 0 222 
合计 | 5276 | 8588 | 0 162 | 合计 | 3512 | 8699 | 52 | 647 | 合计 | 4219 | 11417 | 31 | 404 


同时 ,针对 上 述 标准 名 称 进行 深入 剖析 ,梳理 出 各 类 别 的 词 云图 。 在 行业 标 
准 方面 , 核心 词汇 包括 技术 、 方法、 技术 规范 、 测 定 、 条 件 、 通 用 、 档 案 、 液压、 
气象 等 。 而 在 地 方 标准 领域 , 关键 词 则 表现 为 技术 规程 、 规 范 、 技术 规范 、 生 产 、 
管理 、 服 务 、 栽 境 、 产品 、 地 理 、 标 志 等 。 


行业 备案 标准 词 去 图 (2021 .2023 年 ) 


技 程 


行业 和 住 : 词 去 图 (2021- 2023 年 ) 


技术 规程 


席 品 二 
类 并 > 生字 规 缉 


地 方 备案 标准 词 云图 (2021-2023 年 ) 地 方 废止 标准 词 云 图 (2021-2023 年 ) 
图 1 行业 、 地 方 发 布 及 备案 标准 词 云 图 (2021 年 -2023 年 ) 

3 研究 方法 
3.1 概述 

随 着 人 工 智 能 和 机 器 学 习 的 快速 发 展 ， 大 模型 (Large Language Models， 
LLMs) 成 为 数据 科学 领域 的 热门 技术 之 一 。 大 模型 是 指使 用 大 规模 数据 进行 训 
练 的 深度 学 习 模 型 , 具有 强大 的 表征 和 推理 能 力 , 能 够 自动 学 习 和 理解 自然 语言 
的 模式 和 语义 ， 如 GPT-3、BE RT 和 GPT-4 等 03]。 随 着 ChatGPT、 文 心 一 言 等 
产品 的 相继 发 布 ， 大 模型 在 自然 语言 处 理 、 文 本 生成 、 语 义 搜 索 等 任务 中 展现 出 
了 令 人 瞩目 的 能 力 和 效果 上 9。 知 识 图 谱 是 一 种 结构 化 的 知识 表示 方法 ， 通 过 将 
实体 、 关 系 和 属性 组 织 成 图 形 网 络 , 为 数据 之 间 的 联系 和 语义 提供 了 更 深入 的 理 
解 忠 。 
基于 知识 图 谱 的 知识 库 具 有 丰富 的 语义 表达 和 关联 性 , 可 以 有 效 地 描述 现实 
世界 中 的 各 种 事物 及 其 关系 。 大 模型 非常 适用 于 通用 知识 的 生成 , 对 于 特定 领域 
的 专业 知识 还 是 表现 欠缺 , 此 时 通过 大 模型 结合 知识 库 的 方式 可 以 有 效 解决 此 问 


题 。 


在 专业 知识 引入 层面 ， 大 模型 引入 知识 库 的 策略 主要 为 三 种 : 
、 上 下 文 引 入 〈As Context) 方法 : 将 知识 直接 作为 提示 词 的 上 下 文 ， 使 每 
个 问题 都 携带 所 希 的 全 局 知识 。 然 而 , 此 举 将 消耗 更 多 token, 并 受到 大 模型 token 


的 限制 。 

2、 文 本 内 入 (Text Embeddings): 将 知识 进行 向 量化 并 存储 在 向 量 数据 库 中 。 
这 种 方法 在 模型 中 引入 了 短期 记忆 ， 对 于 针对 性 问题 较为 有 效 。 然而， 由 于 骨 入 
的 知识 量 需 要 受 限 ， 否 则 可 能 对 模型 产生 较 大 噪声 。 

3、 微 调 (Fine Tuning): 将 知识 库 处 理 为 微调 数据 集 , 然后 对 模型 进行 微调 。 
微调 后 的 模型 具备 长 期 事实 记忆 特点 ， 回 答 问题 更 具 条 理性 。 但 针对 特定 知识 的 
回复 能 力 略 逊 于 文本 嵌入 。 

在 文本 生成 的 增强 方面 ， 大 模型 引入 知识 库 主 要 做 两 部 分 的 优化 : 

1、 对 生成 文本 进行 知识 补充 与 校正 : 当 大 模型 生成 的 文本 不 完整 或 存在 错 
误 时 ， 可 借助 知识 库 进 行 补 充 或 修正 。 根 据 知 识 库 中 的 真实 事实 ， 对 大 模型 的 生 
成 文本 进行 修改 或 补充 ， 以 提升 回答 的 准确 性 。 例 如 ， 若 大 型 模型 在 回答 某 一 问 
题 时 遗漏 了 关键 细节 ， 可 从 知识 库 中 提取 相关 内 容 并 融入 回答 之 中 。 

2、 运 用 知识 库 中 的 具体 实体 对 生成 文本 进行 蔡 换 : 大 模型 生成 的 文本 中 可 
能 含有 通用 的 实体 描述 ， 如 “小 米 创始 人 ”通过 知识 库 中 的 具体 实体 替换 这 些 
通用 描述 ， 使 回答 更 具 针 对 性 和 准确 性 ， 如 将 “小 米 创始 人 ”替换 为 “雷军 ”。 
3.2 标准 文献 图 谱 提 取 

标准 化 是 为 了 建立 最 佳 秩序 、 促 进 共同 效益 而 开展 的 制定 并 应 用 标准 的 活动 。 
为 了 保证 标准 化 活动 有 序 开展 , 促进 标准 化 目标 和 效益 的 实现 , 对 标准 化 活动 本 
身 确立 规则 已 经 成 为 国内 外 各 类 标准 化 机 构 开 展 标准 化 活动 的 首要 任务 外。 

《标准 化 工作 导 则 第 1 部 分 :标准 化 文件 的 结构 和 起 草 规则 (GB/T 1.1-2020)》 
是 我 国标 准 化 领域 的 重要 标准 , 规范 标准 的 编写 和 表述 , 提高 标准 的 质量 和 可 读 
性 。 此 标准 适用 于 各 种 领域 的 一 般 技 术 文 档 、 管 理 文档 和 行政 文件 等 ， 对 于 文档 
构成 、 内 容 格式 、 编 写 规则 和 排版 规范 都 做 了 明确 规定 ， 对 大 量 非 结构 化 的 标准 
文献 开展 智能 化 、 自 动 化 解析 打下 了 坚实 的 基础 。 

构建 一 套 规范 且 系 统 的 标准 文献 知识 图 谱 ， 并 通过 不 断 的 完善 , 逐步 形成 一 
个 全 面 的 知识 库 ， 是 开展 知识 检索 、 分 析 、 推 理 、 校 对 等 各 项 工作 的 基础 和 先决 
条 件 。 一 要 逐步 建立 全 面 准确 的 与 大 数据 、 数 据 经 济 及 数据 要 素 紧 密 相关 的 标准 
文献 体系 , 深入 解读 国家 、 行 业 及 地 方 在 相关 领域 所 提出 的 具体 规范 和 明确 要 求 。 
二 要 系统 梳理 标准 文献 之 间 的 相互 关联 , 进而 构建 出 标准 文献 的 知识 图 谱 ( 图 2: 


标准 文献 知识 图 谱 )。 三 是 针对 某 些 关 键 热 词 ， 如 “数据 要 素 X ”和 “新 质 生 产 
力 ” 等 进行 深入 分 析 , 以 预测 和 评估 其 未 来 的 标准 内 容 及 其 可 能 产生 的 关联 影响 ， 
为 制定 相应 的 应 对 策略 提供 有 力 文 持 。 


SS 


图 2 标准 文献 图 谱 

在 本 研究 中 选取 了 多 部 与 大 数据 、 数 据 经 济 及 数据 要 素 相 关 的 标准 文献 , 包 
括 :《 公 共 数 据 中 台 建 设 规范 》《 区 级 大 数据 资源 平台 建设 指南 》《 公 共 数 据 共 
享 交 换 工 作 规范 入 《公共 数据 运营 服务 实施 指南 》 和 《公共 数据 治理 能 力 评估 规 
范 》 等 。 通 常情 况 下 ， 标 准 文献 以 PDF 文件 格式 存储 ， 因 此 需要 采用 “自动 提取 
与 人 工 审核 ” 相 结合 的 方式 ， 对 这 些 文献 中 的 文本 和 表格 等 内 容 按照 上 述 知识 图 
谱 的 三 元 组 信息 进行 提取 。 首 先 通过 运用 PDFPlumber、pyMuPDF 等 框架 ， 实 现 
对 标准 文献 的 自动 化 解析 ， 涵 盖 术 语 、 定 义 、 表 格 、 图 表 、 正 文 解析 、 附 录 解 析 
等 各 个 方面 。 针 对 含有 表格 的 标准 ， 额 外 采用 Camelot 工具 提取 其 中 的 表格 。 接 
着 ,对 提取 所 得 内 容 进行 去 噪 、 分词 、 词 干 提取 等 处 理 ， 以 提升 文本 质量 。 最 后 
对 上 述 自动 提取 的 内 容 进 行人 工 审核 ， 确 保 符合 模型 质量 要 求 。 
3.3 大 模型 与 知识 库 集成 

检索 增强 RAG (Retrieval-Augmented Generation) 是 一 种 结合 检索 和 生成 的 
方法 , 用 于 实现 大 模型 与 知识 库 的 集成 。 这 种 方法 通过 在 大 模型 中 引入 外 部 知识 


库 的 信息 ， 提 高 了 模型 的 生成 能 力 和 准确 性 。 大 模型 与 知识 库 集成 的 关键 步骤 主 


要 包括 语 料 预 处 理 、 向 量 数据 生成 以 及 检索 增强 RAG 等 核心 环节 。 
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图 3 大 模型 与 知识 库 集成 架构 图 
在 语 料 预 处 理 及 向 量 数据 生成 环节 ， 主 要 分 为 以 下 三 个 步 又 。 
首先 ， 进行 标准 文献 收集 及 语 料 预 处 理 

除 停 用 词 、 填 充 词 、 重 复 词 、 无 关 词 、 拼 写 

成 预 处 理 后 的 语 料 。 


上 


答案 


: 根据 前 述 选 定 的 标准 文献 文本 ， 吻 
普 误 等 可 能 干扰 内 容 的 词语 ， 从 而 形 


其 次 , 实施 语 料 向 量 生成 : 借助 Embedding 模型 (如 智 源 研 究 院 的 bge-large- 
zh 模型 ) 构建 向 量 数据 库 。 将 上 述 语 料 分 割 为 小 文本 片段 〈Chunk)， 并 分 别 将 


其 映射 为 低 维 稠密 向 量 。 


接着 ， 进 行 向 量 存储 : 将 生成 的 向 量 存 入 疝 量 数据 库 。 向 量 数 据 库 作 为 一 种 
高 效 存 储 和 检索 回 量 数据 的 方法 ， 有 助 于 更 好 地 处 理 和 分 析 高 维 数据 。 本 研究 选 


用 开源 的 Milvus 作为 本 地 向 量 数据 库 。 
算法 1: 向 量 生 成 


corpus = read_literature(selected_literature) # 读 取 选 定 文献 
词 、 填 充 词 、 


[lll 


1. 语 料 预 处 理 preprocessed_corpus = preprocess(corpus) # 剔除 停 


A 
等 


EE 复 词 、 无 关 词 、 拼 写 错误 


embedding model = load_embedding model() # 初始 化 Embedding 模型 


2. 语 料 向 量 生成 
for chunk in chunks: 


Vector = embedding model.encode(chunk) # 生成 向 量 


chunks = split_into_chunks(preprocessed_corpus) # 分 割 语 料 为 小 文本 片段 (Chunk) 


Vectors.append 


(vector) 


3. 进 行 向 量 存储 
database.close() 
当 用 户 提 出 任 一 问题 
首先 ， 碍 询 向 量 生成 : 


database = connect_to_database() # 连接 Milvus 向 量 数据 库 


for vector in vectors: 


database.insert(vector) 


时 ， 需 要 经 过 以 下 一 系列 步 又: 
借助 Embedding 模型 将 问题 转换 为 向 量 形式 。 


接 下 来 , 计算 向 量 相似 度 : 将 查询 向 量 与 数据 库 中 的 每 个 向 量 进行 相似 度 评 


估 ， 可 采用 余弦 相似 度 、 


排序 、 筛 选 ， 以 获取 最 相似 的 向 量 


欧 氏 距离 等 度量 方法 。 根 据 相 似 度 得 分 对 查询 结果 进行 
， 最 终 呈 现 Top K 个 相关 文本 片段 。 


邮 


然后 ， 对 文本 进行 精 排 : 选用 Reranker 模型 (如 智 源 研究 院 的 bge-reranker- 
large) 对 文本 片段 进行 重新 排序 。 此 步骤 并 非 必需 ， 需 根据 业务 场景 进行 测试 后 


确定 。 


接着 ， 提 示 词 工程 : 
词 。 


基于 精 排 后 的 文本 及 提示 词 模板 ， 生 成 问题 对 应 的 提示 


最 后 ， 答 案 生 成 : 依据 提示 词 并 利用 LLM 模型 (如 ChatGLM3-6B) 来 生成 
答案 。 ChatGLM3 是 智 谱 AI 和 清华 大 学 KEG 实验 室 联合 发 布 的 对 话 预 训练 模型 


[9] 


[e] 


算法 2: 大 模型 与 知识 库 集成 


1 .查询 向 量 生成 


embedding model = load_ embedding model0 # 初始 化 Embedding 模型 
query_vector = embedding model.encode(question) # 将 问题 转换 为 向 量 形式 


vector_database 
for index, db_vec 


Score = similar: 


= connect_to_database() # 连接 Milvus 向 量 数据 库 


tor in enumerate(vector_database): # 人 裔 历数 据 库 中 的 每 个 向 量 
ity_metric(query_vector, db_vector) # 计算 查询 向 量 与 数据 库 内 向 量 的 相似 度 


2. 计 算 向 量 相似 similarity_scores.append((score, index)) 


度 并 获取 文本 片 “| # 根据 相似 度 得 


分 排序 并 第 选 Top K 个 


段 sorted_scores = sorted(similarity_scores, reverse=True) 


top k indices=[ 


score_index[1] for score_index in sorted_scores[:k]] 


for index in top_k indices:# 获取 Top K 个 文本 片段 


similar texts.append(vector database.get text_by_index(index)) 


3. 精 排 reranked texts 
排序 


=Ieranker modelrerank(similar texts) # 使 用 Reranker 模型 对 文本 片段 进行 重 


reranker model = load reranker model() # 初始 化 Reranker 模型 


| 中 
总 
兴 


4. 提 示 词 工程 


hint template = ********* ”#4 提示 词 模板 
for text in reranked texts: # 基于 精 排 后 的 文本 及 提示 词 模板 生成 提示 词 


hint = hint_template.format(text=text) 


hint_words.append(hint) 


lim model= load llm model0 # 初始 化 LLM 模型 


answer=llm model.generate_answer(hint words) # 利用 LLM 模型 生成 答案 


3.4 各 阶段 增强 优化 探索 


经 过 上 述 集成 流程 ， 从 知识 库 中 检索 了 相关 内 容 ， 并 将 其 传递 至 大 模型 进行 


低 的 信息 ， 


结果 和 生成。 然而， 在 模型 验证 阶段 ， 发现 结 果 中 存在 部 分 与 问题 不 相关 或 价值 较 
导致 最 终 输 出 的 结果 未 能 达到 预期 标准 。 此 外 ， 当 回答 未 能 满足 用 户 


期 望 时 ， 缺 乏 有 效 的 调整 手段 。 
鉴于 当前 现状 ， 必 须 对 问题 进行 深入 迭代 ， 或 对 内 容 进 行 审慎 筛选 与 排序 ， 
或 对 解决 方案 进行 必要 改进 。 根 据 RAG 的 进一步 增强 分 成 多 种 类 型 ， 包 括 输入 


增强 、 检索 器 


曾 强 、 生 成 器 


兽 强 、 结 果 增 强 以 及 RAG 流程 增强 五 种 , 详 见 表 2。 


表 2 各 阶段 的 增强 方式 


阶段 增强 方式 描述 
人 通过 修改 输入 查询 来 增强 检索 结果 ， 例 如 使 用 Query2doc 和 HyDE 技术 生成 
伪 文 档 作为 检索 的 键 。 
输入 增强 A ek i A 
ey ee 了 预先 完善 ， 如 去 除 不 相关 信息 、 消 除 歧义 、 更 新 等 ， 以 
提高 RAG 系统 的 性 能 。 
递归 检索 通过 拆 分 查询 并 执行 多 次 搜索 来 检索 更 多 高 质量 的 内 容 。 
块 优化 通过 调整 检索 文本 块 的 大 小 来 获得 更 好 的 检索 结果 ， 如 句子 窗口 检索 。 
闪 委 于 训 汪 微调 向 量 嵌 入 模型 太 高 质量 的 领域 数据 或 任务 相关 数据 对 检索 器 进行 微调 ， 以 提高 其 性 能 。 
混合 检索 司 时 使 用 多 种 类 型 的 检索 方法 ， 如 结合 密集 和 稀疏 检索 器 。 
重新 排序 女 对 检索 到 的 内 容 进行 重新 排序 ， 以 增加 多 样 性 和 改善 结果 。 
元 数据 过 滤 使 用 元 数据 《如 时 间 、 目 的 等 ) 过 滤 检 索 到 的 文档 ， 以 获得 更 好 的 结果 。 
提示 工程 大 通过 设计 有 效 的 提示 来 提高 语言 模型 输出 的 质量 。 
生成 器 增强 微调 解码 器 在 生成 过 程 中 增加 额外 的 控制 ， 如 调整 解码 器 的 温度 或 限制 输出 词汇 表 。 
微调 生成 器 对 生成 器 进行 微调 ， 以 增强 模型 的 领域 知识 或 与 检索 对 象 更 好 地 匹配 。 
结果 增强 重 写 输出 对 RAG 的 最 终结 果 进 行 修 改 ， 以 适应 特定 的 上 下 文 或 提高 质量 。 
RAG 流程 增 适应 检索 太 根据 模型 的 置信 度 或 其 他 指标 决定 是 否 进行 检索 。 
强 友 代 RAG 通过 人 迭代 的 方式 协同 检索 和 生成 ， 以 提高 生成 内 容 的 质量 。 


备注 : 带 “ 广 ”标识 的 

为 科学 评 企 
Augmented Generation Benchmark, 
声 鲁 棒 性 、 负 面 拒绝 、 
客观 地 反映 模型 在 实际 应 用 中 的 性 能 表现 。 其 中 噪声 鲁 
能 力 。 负面 拒绝 评估 大 模型 在 检索 到 的 文档 中 不 存在 所 
名 回答 问题 的 能 力 。 信 息 整 合 评估 是 否 能 够 回答 需要 从 多 个 文档 中 整 


声 文 档 中 提取 有 用 信息 的 


BE 


兽 强 方式 表示 在 本 研究 中 采 


模型 性 能 ， 本 研究 选用 了 检索 增强 生成 基准 〈Retrieval- 


简称 RGB〉 作 为 测试 标准 中 。 该 基准 围绕 品 
整合 及 反 事 实 鲁 棒 性 四 大 核心 维度 展开 ， 旨 在 全 面 、 


性 评估 大 模型 在 包含 吕 


合 信息 的 复杂 问题 。 反 事实 鲁 棒 性 评估 大 模型 在 检索 到 的 文档 中 存在 已 知事 实 错 


误 时 ， 是 否 能 够 识别 风险 ， 并 在 通过 指令 给 出 潜在 风险 警告 时 ， 优 先 考虑 自己 的 


骨 


丙 


L 有 知识 而 不 是 检索 到 的 信息 中 1。 


本 研究 经 过 对 多 种 增强 模式 进行 严谨 验证 与 第 选 ,最终 采 用 了 “数据 增强 ”、 
“微调 向 量 符 入 模型 ^“ 重 新 排序 “提示 工程 ”和 “上 自 适应 检索 ”等 策略 。 其 


中 “ 自 适 应 检索 ”策略 致力 于 通过 持续 的 优化 过 程 ， 以 提高 最 终结 果 的 精确 性 和 


化 措施 。 随 后 ， 


有 效 性 中 。 当 输出 结果 未 能 满足 预期 时 , 研究 将 回溯 至 关键 节点 , 实施 针对 性 优 


研究 将 重新 执行 流程 ， 直 至 满足 既定 条 件 ， 确 保 最 终 呈 现 一 个 令 


人 满意 的 优质 输出 请 1。 


首先 ， 


问题 | 


ba 


Embedding -一 ， Reranker ——» Prompt 


本 


玉 
潜 


图 4 自 适 应 检索 


通过 问题 、 向 量 数据 库 以 及 提示 词 模型 等 协同 进行 检索 ， 以 生成 初步 


的 结果 。 随 后 , 对 生成 的 结果 进行 相关 性 判断 。 若 结果 的 相关 性 低 于 相关 性 阔 值 ， 


则 将 其 视 为 负面 答案 , 并 据 此 重新 调整 提示 词 , 再 次 传 入 大 型 模型 以 生成 新 的 结 


果 。 这 一 过 程 将 持续 进行 ， 直 至 生成 的 答案 满足 相关 性 要 求 。 


和 法 3:， 自 反馈 算法 


1. 提示 词 生成 


query_vector = embedding model.encode(question) # 查询 向 量 生成 
similar texts = get top k similar texts(query_vector, Vector _database, Similarity_metric, k=10) # 
计算 向 量 相似 度 并 获取 片段 


reranked texts = reranker model.rerank(similar texts) # 精 排 


hint words = generate_hint words(reranked texts,hint_template) # 提示 词 工程 


2. 生 成 结果 


lm model = load llm model()# 初始 化 LLM 模型 


answer= lim model.generate_answer(hint words) # 利用 LLM 模型 生成 答案 


while not is_answer relevant(answer, question): 
hint words = generate_hint words(hint_ words,answer) # 基于 答案 重新 生成 提示 词 ， 答 案 作为 
负面 条 件 


answer = generate answer(question, hint words) # 重新 利用 LLM 模型 生成 答案 


return answer 


函数 1: 判断 答案 


defis answer relevant(answer, question, relevance threshold=0.8): 


的 相关 性 


# 调用 相关 性 判断 模型 或 函数 


relevance_score = relevance model.score(answer, question) 


return relevance_score >= relevance threshold 


本 研究 以 《公共 数据 治理 能 力 评估 规范 》 标 准 为 例 ， 对 模型 优化 前 后 的 输出 


题 一 ， 优 化 前 后 的 模型 输出 结果 大 致 相同 ， 均 符 


题 二 的 回答 方面 , 经 过 优化 后 的 模型 表现 出 显著 的 提升 ， 其 效果 明显 优 于 优化 前 
的 模型 ， 这 充分 说 明了 优化 工作 的 重要 性 和 必要 性 。 因 此 ， 在 大 模型 与 知识 库 结 
合 的 过 程 中 ， 引 入 自 适应 检索 等 策略 机 人 


Ri 


而 进一步 增强 答案 的 精确 性 和 相关 性 。 
表 3 模型 优化 前 后 对 比 


问题 
问题 一 :指标 
体系 包括 哪 几 
条 ? 


优化 前 
公共 数据 治理 能 力 评估 规范 的 指标 体系 是 一 个 全 面 
且 多 维度 的 框架 .…: 包 括 以 下 几 个 方面 : 
1 .数据 规划 : 评估 组 织 是 否 制 定 了 明确 的 数据 规划 策 
略 , 包括 数据 收集 、 存储 、 处 理 和 应 用 等 方面 的 规划 。 
2. 组 织 管理 : 考察 组 织 在 数据 治理 方面 的 组 织 架构 、 
人 员 配 置 以 及 职责 划分 是 否 合理 有 效 。 


结果 进行 了 详细 记录 与 对 比分 析 ， 具体 如 表 3 所 示 。 通 过 对 比分 析 发 现 ， 针 对 问 


合 相 关 标 准 与 要 求 。 然 而 ， 在 问 


， 能 够 显著 提高 检索 和 生成 的 质量 ， 从 


优化 后 
公共 数据 治理 能 力 评估 规范 的 指标 体系 包 


括 以 下 几 个 方面 : 
1. 数 据 规划 : 包括 目标 规划 、 规 划 实 施 、 规 
划 评 估 三 个 能 力 项 。 


2. 组 织 管理 : 包括 组 织 架构 、 组 织 效 能 两 个 


问题 二 : 能 力 
等 级 怎么 划 
分 ? 


4 ”结束 语 


公共 数据 治理 能 力 评估 规范 中 的 能 力 等 级 划分 通常 
基于 组 织 在 数据 治理 各 个 方面 的 表现 和 成 熟 度 。.…… 
.初始 级 (基础 级 ): 组 织 对 数据 治理 有 基本 的 认识 和 
了 解 ， 但 尚未 形成 完整 的 数据 治理 体系 .…. 

2. 受 管理 级 (发 展 级 ): 组 织 已 经 建立 了 初步 的 数据 治 
理 框 架 ， 并 开始 实施 一 些 基 本 的 数据 管理 制度 和 规 


3. 标 准 级 (优化 级 ): 组 织 已 经 建立 了 完善 的 数据 治理 
体系 , 并 全 面 实 施 了 一 系列 成 熟 的 数据 管理 制度 和 规 


能 力 等 级 的 划分 遵循 以 下 原则 和 方法 : 

1. 指 标 等 级 划分 : .… 能 力 等 级 应 设置 为 M 
级 ， 建 议 可 分 为 3 级 或 5 级， 不 超过 9 级 。 
2. 权 重 设计 : .….. 可 以 采用 主观 经 验 、 主 次 指 
标 排队 分 类 法 、 层 次 分 析 法 、 专 家 打分 法 等 
方法 2 全 下 

3. 治 理 能 力 等 级 : 公共 数据 治理 能 力 等 级 与 
评估 指标 的 等 级 划分 层级 一 致 。.……. 

4. 计 算 方法 : 能 力 项 等 级 分 数 通 过 对 评估 指 
标 分 值 进 行 加 权 求 和 的 方法 计算 。.…. 


本 研究 精心 选取 多 部 具有 典型 性 的 标准 文献 作为 深入 探讨 的 对 象 ,通过 充分 
利用 Embeddings、LLM、Rerander 等 大 模型 的 语义 解析 能 力 与 知识 库 的 资讯 整 
合 功能 ， 全 面 细致 地 剖析 了 这 些 标准 文献 。 同 时 ， 本 研究 还 创新 性 地 引入 了 “ 数 
据 增 强 ” 和 “ 自 适 应 检索 ”等 策略 ， 对 模型 进行 了 精细 化 的 优化 。 这 些 举措 使 得 
模型 在 标准 文献 领域 取得 了 显著 的 提升 和 突破 。 

大 模型 最 典型 的 应 用 就 是 写作 生成 。 根 据 主题 、 关键 词 要 求 , 大 模型 可 以 “ 写 


作 ” 故 事 、 小 说 、 诗 歌 、 信 件 、 新 闻 报 道 、 时 事 评 论 、 论 文大 纲 等 ， 进 行文 字 修 
改 和 润色 ， 如 语法 更 正 、 文 本 翻译 、 关 键 字 提取 [1。 本 研究 具有 广泛 的 领域 适用 
性 ， 在 知识 挖掘 与 检索 方面 ， 能 够 高 效 地 对 标准 文献 知识 库 进 行 检索 、 理 解 和 推 
理 ， 进 而 显著 提高 科研 效率 。 在 辅助 写作 与 评审 方面 ， 针 对 论文 写作 、 审 稿 和 修 
订 过 程 中 涉及 的 标准 文献 , 实现 学 术语 义 生 成 、 校 对 核对 等 多 种 功能 。 举 例 来 说 ， 
当面 临 如 “在 数据 经 济 领域 ， 常 见 的 标准 文献 有 哪些 ? ”或 “请 概括 茶 标 准 的 核 
心理 念 及 主要 内 容 ” 等 问题 时 ， 本 研究 能 够 自动 生成 准确 、 全 面 的 答案 ， 为 用 户 
提供 有 力 的 支持 与 帮助 。 

然而 , 研究 之 路 并 无 止境 。 下 一 步 , 将 拓展 研究 范围 , 不 再 局 限于 标准 文献 ， 
而 是 将 政策 文件 、 新 闻 稿 、 电 子 公文 等 各 类 语 料 素 材 纳 入 研究 范畴 ， 进 一 步 扩 大 
大 模型 在 政务 信息 处 理 领 域 的 应 用 范围 。 此 外 ， 除 本 研究 的 方案 外 ， 还 将 深入 研 
完 微调 技术 ， 以 构建 政务 领域 垂直 大 模型 。 同 时 ， 通 过 对 比 两 者 在 政务 领域 的 优 
和 劣势， 期望 能 确定 大 模型 在 政务 场景 下 的 推荐 方案 。 

总 之 ， 基 于 大 模型 与 知识 库 的 标准 文献 研究 具有 巨大 的 发 展 潜力 。 通 过 不 断 
的 探索 与 实践 , 能 在 政务 领域 取得 更 为 卓越 的 成 果 , 为 决策 者 提供 有 力 的 信息 文 
持 。 
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